今天我們來用 model catalog 部署多模態的 AI 模型。
我們來部署 Phi-3.5 Vision-Instruct 。這是一款由 Microsoft 開發的多模態 AI 模型,屬於 Phi-3 模型家族。這個模型可以處理文本和圖像的結合輸入,並且它有對於高品質、具推理能力的資料進行了訓練。它具有 128K 的上下文長度,能夠處理單張或多張圖像,並針對這些圖像生成相應的文本描述、回答問題或進行推理。
那麼我們現在就來部署起來吧!




curl -X POST https://Phi-3-5-vision-instruct-auexp.westus3.models.ai.azure.com/chat/completions \
-H "Authorization: Bearer xx" \
-H "Content-Type: application/json" \
-d '{
"messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "https://magicpandaengineer.blob.core.windows.net/img/2024ironman/2024ironman-day12-01.png"
          }
        },
        {
          "type": "text",
          "text": "請用正體中文,描述這張圖片"
        }
      ]
    }
  ]
}'
會得到結果
{
    "choices":[
        {
            "finish_reason":"stop",
            "index":0,
            "message":{
                "content":" 這張圖片是一個中介程式的簡介圖,它標示了如何使用中介程式來設計和開發自己的人工智能(AI)解決方案。圖表裡有許多單元,每個單元都是設計人工智能的不同模型或方法。在圖表中,有一個特定的模型被突出並且被放在其圖類的底部,這是一個名為 'P-1-vision instruct' 的模型,這個模型可能是中介程式的一種特定人工智能解決方案。",
                "role":"assistant",
                "tool_calls":null
            }
        }
    ],
    "created":1727279371,
    "id":"cmpl-xx",
    "model":"phi35-vision-instruct",
    "object":"chat.completion",
    "usage":{
        "completion_tokens":222,
        "prompt_tokens":493,
        "total_tokens":715
    }
}
我們可以看到,它解析出了 P-1-vision instruct,我想只是解析度不夠而已,但是已經很強了,也猜測了這張圖片是什麼?
Phi-3.5 Vision-Instruct 雖然強,但是畢竟是中小型的大語言模型,建議拿來做簡單的辨識就好了。